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支持 差分 隐私 保护 及 离 群 点 消除 的 并 行 K-means 算法 


攀 一 康 ， 刘 建 伟 


(北京 航空 航天 大 学 电子 信息 工程 学 院 ,北京 100191) 


Jj 3E: 针对 大 数据 环境 下 聚 类 分 析 的 隐私 保护 问题 ， 基 于 MapReduce 计算 框架 ， 提 出 了 一 种 并 行 化 的 支持 差分 隐私 
保护 和 离 群 点 消除 的 K-means 算法 。 算 法 并 行 地 计算 数据 集中 各 点 间 的 欧 氏 距离 矩阵 与 最 近邻 超 球 半径 以 导出 离 群 点 
的 判定 阀 值 ， 并 在 此 基础 上 完成 差分 隐私 保护 下 的 初始 聚 类 中 心 选取 和 并 行 聚 类 过 程 。 理 论 分 析 证 明 整 个 算法 满足 # 
-差分 隐私 保护 , 实验 结果 说 明 该 算法 在 隐私 保护 的 有 效 性 , 聚 类 结果 的 可 用 性 以 及 执行 效率 等 方面 取得 了 很 好 的 平衡 ， 
相 比 于 同类 算法 有 较 优 的 表现 。 
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Parallel K-means algorithm with differential privacy preservation and outlier pruning 


Fan Yikang, Liu Jianwei? 
( School of Electronic Information Engineering, Beihang University, Beijing 100191, China) 


Abstract: Aiming at the problem of privacy protection of clustering analysis in big data environment, based on the MapReduce 
computing framework, this paper proposed a parallel k-means algorithm that supports differential privacy protection and outlier 
elimination. The algorithm parallelly calculates the Euclidean distance matrix and nearest neighbor hypersphere radius between 


points in data set to derive the decision threshold of outliers, and then completes the initial cluster center selection and parallel 


clustering process under differential privacy protection. The theoretical analysis proves that the proposed algorithm satisfies £- 
differential privacy, and the experimental results show that, compared with other algorithms, our algorithm performs better and 
has a good balance between the validity of privacy protection, the availability of clustering result and the efficiency of 


implementation. 
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发 来 攻击 ， 模 型 往往 就 无 能 为 力 。 除 了 需要 被 动 地 针对 新 型 攻 
击 而 发 展 变种 的 缺陷 外 ， 这 些 模型 也 未 能 提供 一 个 严格 的 量化 


随 着 数据 挖掘 在 各 行 各 业 越 来 越 广泛 的 应 用 ， 控 掘 引起 的 “方法 来 度量 其 隐私 保护 水 平 ， 这 也 影响 了 它们 的 和 鲁 棒 性 。 
个 人 隐私 泄露 的 问题 也 越 来 越 受到 重视 。 如 何在 保护 个 人 隐私 在 这 样 的 背景 下 ，Dwork 提出 了 差分 隐私 (differential 
的 同时 为 挖掘 保持 数据 的 可 用 性 逐渐 成 为 数据 挖掘 和 信息 安全 privacy, DP) 中 的 概念 。 差 分 隐私 保护 通过 添加 噪声 的 方式 可 
领域 的 一 个 重要 的 研究 方向 。 使 得 处 理 数据 集 的 茶 个 算法 的 输出 对 数据 集中 某 条 记录 的 变化 


期 典型 的 数据 隐私 保护 模型 是 基于 等 价 类 (equivalence 其 至 存在 与 否 不 敏感 。 因 此 ， 个 人 的 一 条 记录 被 包含 在 某 个 提 
group) 的 kanonymitytM 及 其 一 系列 扩展 模型 ,它们 的 核心 思想 供 差分 隐私 保护 的 数据 集中 而 带 来 的 隐私 泄露 风险 可 以 被 控制 
都 是 将 一 个 记录 隐藏 在 一 组 记录 之 中 所 ， 保 证 任 一 记录 与 至 少 在 一 个 可 接受 的 范围 内 ,即便 是 在 攻击 者 拥有 最 大 背景 知识 ( 即 
kl 个 记录 是 不 可 区 分 的 。 但 是 这 些 模型 总 是 需要 针对 新 出 现 ”攻击 者 已 知 除 目标 记录 外 的 所 有 记录 的 信息 ) 的 情况 下 。 同 时 ， 


mi 


的 攻击 类 型 而 作出 相应 的 完善 ， 例 如 针对 “一 致 性 ”攻击 而 相 ”差分 隐私 定义 了 严格 的 攻击 者 模型 并 提供 了 可 证 明 的 量化 的 评 
继 被 提出 的 I-diversityP!, (a, k)-anonymity!, M-invariance?, 十 方 法 来 度量 隐私 泄露 风险 。 而 基于 差分 隐私 保护 的 算法 在 输 
针对 “最 小 性 ”攻击 而 被 提出 的 m-confidentialityf。 导 致 这 一 ”出 上 需要 添加 的 噪声 独立 于 数据 集 的 规模 ， 且 少量 的 噪声 即 可 
局 面 的 根本 原因 是 基于 等 价 类 的 隐私 保护 依赖 于 对 攻击 者 所 掌 ”达到 较 高 的 隐私 保护 水 平 并 保持 挖掘 结果 的 可 用 性 。 正 因为 差 
握 的 背景 知识 的 限定 ， 而 只 要 攻击 者 从 限定 之 外 的 背景 知识 出 。 分 隐私 在 上 述 几 个 方面 有 着 良好 的 表现 ， 其 迅速 被 业界 接纳 并 
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影响 并 引入 了 一 种 检测 离 群 点 
复杂 度 为 O(N?) N 为 数据 集中 的 记录 数 ， 
居 集 进行 聚 类 分 析 时 尤为 明显 , 此 外 , OEDP 算 
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时 挖掘 研究 工作 在 关联 规则 挖掘 上 
聚 类 分 析 上 的 积累 则 相对 较 少 。K-means 算 
之 一 ， 对 于 如 何在 其 聚 类 分 


间 取 得 平衡 ， 以 及 对 其 执行 效 
率 的 优化 上 ， 国 内 外 学 者 都 做 了 一 些 积累 与 贡献 。 文 献 [8] 给 出 
差分 隐私 保护 的 KK-means 算法 , 文献 [9] 从 隐私 保护 
— 度 对 文献 [8] 中 的 工作 进行 了 完善 ， 文 献 [10] 基 于 
MapReduce 计算 框架 中 
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医 架 并 行 地 计算 数据 集中 各 点 间 的 欧 氏 距离 托 
邻 超 球 半径 以 导出 离 群 点 的 判定 阔 值 ， 
完成 差分 隐私 保护 下 的 初始 聚 
文 给 出 了 算法 的 差分 隐私 公 
本 文 算 法 在 隐私 


保护 的 有 效 性 ， 


简单 的 分 段 取 平均 值 ， 并 没有 排除 可 外 
, OEDP k-means 算法 和 IDP k-means 算法 都 是 串 行 结 
结构 对 大 规模 数据 集 上 的 聚 类 需求 是 很 有 


基于 此 ， 本 文 提 出 了 一 种 支持 差分 隐私 保护 及 离 群 
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类 中 心 选取 和 并 行 聚 类 过 
证 明 与 实验 分 析 , 相 比 于 同类 算法 ， 
聚 类 结果 的 可 用 性 
di. 
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了 严格 且 可 证 
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明 的 隐私 保护 定义 以 


记 对 称 差 中 的 


背景 知识 的 限定 ， 从 而 可 应 对 任意 背景 知识 下 
的 攻击 行为 。 其 主要 方式 是 在 数据 全 
随机 噪声 来 实现 隐私 保护 ， 同 时 保持 原 有 数据 及 所 
具体 地 ， 差 分 隐私 模型 的 一 


中 或 者 在 算法 输出 上 添加 
含 信息 的 可 


些 定义 和 性 质 如 下 所 述 


E p 和 py， 二 者 的 属性 结构 相同 , 记 二 者 的 


记录 数量 为 | DAD'| 。 称 


近 数 据 集 (Adjacent Dataset). 
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a) 
隐私 保护 预算 ， 
影响 ， 越 小 的 


e 意味 着 越 严格 的 隐私 保护 。 一 般 e 的 取 值 范围 是 (0.01,0.1) 或 


在 某 些 情况 下 为 dn2,1n3) H 
L, 敏感 度 
HAR e. p oy R ,其 将 数据 集 p 映射 到 4g- 维 实数 空间 中 
的 一 个 向 量 ， 对 于 任意 的 邻近 数据 集 p 和 了 py， 令 
Af -max || f(D) - f(D Q) 
则 称 Ar 为 函数 p RO L BURRDA, XUI FOD -fO |l 


是 f(D) 5 fip) 间 的 ]_ 阶 范 数 距离 。 
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TEE L 敏感 度 独 立 于 数 
它 是 影响 所 需 加 入 的 随机 噪声 量 的 


隐私 保护 的 噪声 实现 机 制 主要 有 指数 机 制 和 Laplace 
种 , 相 比 于 指数 机 制 ，Laplace 机 制 对 数值 型 数据 的 保 


因此 多 | 


概率 密度 函数 为 


有 


之 间 是 相互 独立 的 。 


对 于 函数 p: D go 


KXD) = f CD) + (Lap, (Af / 2),Lap,(Af / &)..... 


PG|D = 二 zoo 


j 于 构造 支持 差分 隐私 保护 的 聚 类 算法 。 
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引入 的 噪声 就 越 大 。 
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个 随机 算法 太 , 反 ,其 隐私 保护 预算 分 别 为 


ca 


(max 6,)- 差分 隐私 保护 ， 此 即 差 


es 


设 


[16]. 


e, » WI n SEED "E ERR 
个 随机 算法 并 行 组 合成 


1.2 k-means 聚 类 算法 与 离 群 点 


2 


对 一 


属性 


^ gr 上 的 数 


T * 


值 的 数据 点 ， 


ER D. D, D, ! 
的 算法 KOGSOD). KD, )..... 


分 隐私 的 并 行 组 合 性 


ER XXX} 
RE 2S ETE RD XA 73 gA: 


&, ， 则 对 于 某 一 数据 集 po PIX n 个 随机 算法 序列 组 合 


X, OD) 满足 (ye)- 差分 隐私 保护 ， 


Én 
K, (D) 满足 


[6], 


其 包含 N 个 具有 


设 kc 为 邻近 数据 集 p 和 py 上 的 一 个 随机 算法 ， 记 所 有 
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录用 稿 HE—JR, Ai 支持 差分 隐私 保护 及 点 消除 的 并 行 K-means 算法 


的 点 或 称 向 量 之 间 高 度 相似 而 簇 间 的 相 异 。k-means 算法 被 公 ”各 数据 点 间 的 欧 氏 距离 dist, xu xis j<N)， 用 一 个 NxN 
认 是 应 用 最 广泛 的 聚 类 算法 之 一 ， 其 首先 选择 天 个 初始 中 心 点 ，“ 的 距离 矩阵 pis 来 表示 它 。 而 在 计算 该 距离 矩阵 前 ， 需 要 对 数 
然后 将 数据 集中 的 点 按 平 方 欧 氏 距离 分 配 到 最 近 的 中 心 点 从 而 ”” 据 集 进行 归 一 化 处 理 。 因 此 首先 需要 计算 数据 集中 工 个 属性 各 
形成 多 个 簇 并 调整 各 中 心 点 到 各 艇 的 平均 值 , 算法 重复 这 一 分 。 自 的 最 大 值 和 最 小 值 。 然 后 完成 数据 的 归 一 化 以 及 按 一 定 方式 
配 调整 的 过 程 直 至 满足 收敛 判 据 或 者 迭代 次 数 达到 上 限 。k- ”分 拆 与 整理 数据 集中 的 所 有 数据 以 适 配 MapReduce 下 对 各 数 


means 算法 的 一 个 重要 优势 是 时 间 及 空间 复杂 度 均 与 N,T,K 旺 ”据点 间 欧 氏 距 离 的 并 行 计算 ,最终 获得 距离 矩阵 Dist 。 
线性 相关 【一般 地 ，T < N,K <N )。 但 因为 k-means 算法 以 其 次 是 过 渡 阶 段 ， 算 法 完成 离 群 点 判定 阐 值 的 计算 以 及 初 
平方 欧 氏 距离 度量 相似 度 ， 所 以 其 对 数据 噪声 及 离 群 点 十 分 敏 。” 始 聚 类 中 心 的 选取 。 由 上 一 阶段 得 到 的 距离 矩阵 Disr ， 并 行 地 


感 ， 少 数 的 离 群 点 就 能 对 其 所 属 簇 的 中 心 造成 很 大 的 影响 ， 在 。 ”计算 数据 集中 各 数据 点 的 p 最 近邻 超 球 半径 Radius, X) » 3E 
降低 聚 类 准确 性 的 同时 也 可 能 致使 k-means FORRA 。 ”而 计算 出 离 群 点 的 判定 病 值 了 。 此 外 ， 考虑 到 K-means 算法 医 
而 降低 算法 的 运行 效率 。 为 回避 离 群 点 带 来 的 消极 影响 ， 可 以 ” 其 梯度 下 降 的 性 质 而 对 初始 中 心 点 的 选择 十 分 敏感 "1, 盲目 选 
选择 鲁 棒 性 更 好 的 距离 函数 如 City-block (c) "2"， 但 更 直接 的 。” 择 初 始 中 心 可 能 导致 第 三 阶段 的 聚 类 算法 迭代 次 数 增多 而 影响 
处 理 方法 是 离 群 点 修剪 。 有 关 离 群 点 的 一 些 定义 及 概念 如 下 述 。 ”效率 ， 且 过 慢 的 收敛 还 会 引入 更 多 的 噪声 而 影响 聚 类 结果 的 可 
1.2.1 y- 最 近邻 超 球 及 其 半径 用 性 。 因 此 算法 利用 距离 矩阵 Dist 中 的 信息 完成 初始 聚 类 中 心 

对 于 qr 上 的 数据 集 4 xp，, 称 任 一 数据 点 x 与 离 的 选取 , 核心 策略 是 让 这 天 个 初始 聚 类 中 心 能 尽 可 能 地 分 别 落 


其 最 近 的 > 个 数据 点 在 了 维 空间 中 构成 的 超 球 为 x 的 六 最 近 在 假设 存在 的 天 个 篮 中 ， 并 在 选取 过 程 中 剔除 离 群 点 。 
邻 超 球 ， 这 一 概念 的 原型 为 文献 [12] 中 的 六 最 近邻 区 域 Cr- 算法 在 第 三 阶段 完成 数据 的 聚 类 分 析 及 其 中 的 差分 隐私 保 
nearest-neighbour area). 护 。 由 第 二 阶段 得 到 的 天 个 初始 聚 类 中 心 出 发 ， 将 数据 集 y rn 


希望 点 的 x- 最 近邻 超 球 的 大 小 可 以 反映 出 点 及 其 周 ”的 数据 点 参考 其 与 各 聚 类 中 心 的 距离 大 小 就 近 划 分 成 天 个 复 ， 
胃 点 的 稀 玻 程度 ， 因 此 取 点 x 与 其 超 球 中 的 所 有 点 的 平均 欧 氏 计算 各 艇 中 数据 点 的 数量 及 总 和 并 添加 相应 量 的 Laplace V 
距离 为 超 球 的 半径 ， 记 数据 点 x 与 其 x- 最 近邻 超 球 中 的 点 ， 声 ， 进 而 获得 新 一 代 的 天 个 聚 类 中 心 。 算 法 重复 这 一 过 程 ， 直 
mn(<1z<7) 间 的 欧 氏 距离 为 dqist(x,n) ， 超 球 半径 为 至 满足 收敛 判 据 或 者 迭代 次 数 达 到 上 限 。 最 终 算法 输出 最 后 一 


| M 次 迭代 得 到 的 聚 类 中 心 及 所 含 数据 点 的 数量 。 
rRadius(x;, X) = [3 distG;,n))] Ir (5) 
I 24 具体 步骤 
1.22 $ R 5 A Xp og BE 2.1.1 计算 最 大 值 与 最 小 值 
离 群 点 02 是 指 与 其 他 点 有 明显 不 同 的 数据 点 ， 一 般 可 分 为 设 pR ERARE Vues) 被 均匀 划分 为 Mr 个 数据 


全 局 离 群 点 〈global outlier), RFEA Contextual outlier), 片 ， 每 个 数据 片 中 最 多 有 [N/M | 个 数据 点 ， 记 第 m 个 数据 片 
集体 离 群 点 (collective outlier)， 鉴 于 本 文 主要 面 对 的 是 数值 型 ”及 其 索引 分 别 为 Splis, 和 SplitIndex,, 。 记 由 7 个 属性 域 的 理论 
数据 的 分 析 人 处 理 ， 不 涉及 具体 情境 或 者 群 组 ， 因 此 只 考虑 全 局 最 大 值 和 理论 最 小 值 构 成 的 数据 点 分 别 为 Attr,, 和 Attn, s i6 
离 群 点 ， 也 即 数据 集中 与 其 余 点 差别 均 很 大 的 数据 点 。 对 于 离 数据 集 守 在 7 个 属性 域 上 的 最 大 值 和 最 小 值 构成 的 数据 点 
群 点 的 判定 ， 由 数据 集中 的 稀有 类 由 至 多 5% 的 数据 点 组 成 [8]， 分 别 为 wy M xu, ， 记 由 数据 片 Split, 在 7 个 属性 域 上 的 最 大 


m 


估计 数据 集 y 中 离 群 点 数目 不 超过 Wx0.05， 记 为 0,,,， 记 离 值 和 最 小 值 构成 的 数据 点 分 别 为 入 ,5 。 


num 


mt 


群 点 的 六 最 近邻 超 球 半径 的 判定 阔 值 为 了 , 取 其 值 为 数据 集中 Master( 主 节点 ) 指 派 y 个 Map 任务 与 2 Reduce 任务 。 
广 最 近邻 超 球 半径 最 大 的 O 个 点 的 半径 均值 ,从 而 认为 -最 需要 注意 的 是 ， 在 经 典 形式 中 ，Map 任务 会 遍历 数据 片 中 的 各 
近邻 超 球 半径 超过 阔 值 二 的 数据 点 为 离 群 点 。 键 值 对 并 在 其 上 分 别 调用 Map 函数 , 而 在 这 里 采取 相 异 的 策略 


-— 以 便于 处 理 数据 ,即将 上 述 遍 历 过 程 放 在 Map 函数 之 中 (通过 
2 Wed: 重 载 mapper 类 的 用 户 继承 类 中 的 run 方法 来 实现 )， 因 此 每 个 

本 文 提出 的 算法 基于 MapReduce 计算 框架 , 并 行 地 计算 得 。 Map 任务 只 需 调用 一 次 Map 函数 , 在 后 续 的 一 些 步骤 中 也 用 到 
到 离 群 点 的 判定 阔 值 ， 并 在 此 基础 上 完成 差分 隐私 保护 下 的 初 。 了 同样 的 策略 , 不 再 一 一 说 明 。 本 文 参考 MapReduce 框架 提出 
始 聚 类 中 心 选 取 和 并 行 聚 类 分 析 。 其 中 离 群 点 相关 的 处 理 可 以 ”者 在 文献 [11] 中 的 表达 形式 ,在 Map 函数 中 用 EmitIntermediate() 
提高 K-means 算法 的 准确 度 和 运行 效率 ， 而 差分 隐私 保护 则 关 ”函数 表示 输出 中 间 键 值 对 这 些 中 间 键 值 对 会 由 框架 传递 给 


注 在 数据 集中 的 一 条 记录 改变 时 ， 算 法 聚 类 结果 (各 聚 类 质心 。 Reduce 任务 )， 在 Reduce 函数 中 用 Emit0 函 数 表示 输出 结果 键 
位 置 及 所 含 数据 项 的 数目 ) 的 相应 变化 不 会 泄露 隐私 信息 。 具 x CAFEA Reduce 任务 的 输出 文件 中 )， 在 后 续 的 各 步 
体 来 说 ， 算 法 分 为 三 个 阶段 ， 又 中 依然 保持 这 样 的 表达 形式 。 

首先 是 准备 阶段 ,对 于 一 个 Rr 上 的 数据 集 Xmas) 体 地 ， 计 算 最 大 值 与 最 小 值 的 Map 函数 及 Reduce 函数 


前 文 离 群 点 的 相关 概念 可 知 ， 离 群 点 的 相关 计算 依赖 于 二 中 ”的 伪 代 码 如 下 所 示 : 


map(Index SplitIndex, , DataSplit Split, ): 及 划分 。 上 有 具体 地 ， 记 @=|M/T|， 对 于 某 个 关联 和 矩阵 
Nonna H, =[(%,@ , (3. s Qa, 0] ,将 其 中 的 键 值 对 均匀 划分 
Attra? 为 2 个 部 分 ， 每 部 分 至 少 包 含 | NW/O| 个 键 值 对 ， 从 而 由 已 派 
K nmin ^E d Qo ^ P E SH, — E P fs ^ Fl B8 R NK ÓB Fe 
Attr, ay ; (H, H, S H,9) 。 而 对 于 其 中 某 个 已 ,G<qg<C)， 用 它 的 属 
foreach x, in Split, : 性 域 标号 1 与 键 值 对 序号 q 的 乘积 tq 作为 它 的 索引 ，Map 函数 
update x,,,, and x,,4; 只 计算 该 关联 矩阵 中 第 4 部 分 键 值 对 涉及 的 点 与 其 余 点 在 属性 
EmitIntermediate(*max", Xx, max); RA 下 的 距离 分 量 。 为 了 节省 空间 ， 对 于 Map 函数 的 输出 ， 不 
EmitIntermediate(^min", X, min ); 同 于 传统 中 间 键 值 对 (intermediate key/value pair) 的 形式 
reduce(String type, Iterator vectors) < (x, x), value >, 采用 “ 带 ”(stripe) 的 形式 < x,[(xj,value)...] > 
//type 取 值 为 “max” 或 “min” 来 存放 , 即将 点 x 与 其 余 点 在 属性 域 4 下 的 距离 分 量 存 放 在 一 
//vectors 是 同 type 下 各 x, wo BR x, min 的 集合 个 关联 数组 D, 中 。 以 带 的 形式 来 组 织 数 据 相 比 于 中 间 键 值 对 
if (type.equals(“max”)) 可 以 节省 约 三 分 之 一 的 空间 , 并 且 在 利用 MapReduce 框架 中 的 
foreach x, ms in vectors: Combiner 时 也 能 有 更 高 的 合并 效率 。Reduce 函数 将 数据 点 x 
update wx ; 在 各 属性 域 下 与 其 余 点 的 距离 分 量 整合 并 计算 得 到 其 与 其 他 点 
Emit( max xax ); 的 欧 氏 距离 最 后 存 入 关联 数组 D, 之 中 。 WR T 与 jy 较为 接近 ， 
else WR o 73 1, 即 不 再 对 瓦 分 段 划分 而 作为 一 整 段 来 处 理 .Master 
foreach x,,, in vectors: JdBUKTxg (其 值 可 能 略 大 于 jy ) ^ map 任务 和 jy 个 reduce 
update x, ; 任务 。 到 此 ， 即 可 获得 距离 矩阵 pist ， 其 由 jy 份 Reduce 任务 
Emit(“min”, x, ); 输出 的 数据 文件 组 成 。Map 函数 及 reduce 函数 的 伪 代 码 如 下 所 
2.1.2 归 一 化 及 倒 排 索引 示 : 
延 用 上 一 步 中 划分 得 到 的 jy 个 数据 片 。 记 数据 集 y AIr map(Index tq , AssociativeArray H, , ): 
个 属性 域 的 集合 为 Attriputes ={4,4…,4}， 记 数据 点 二 在 属 foreach x, inthe q, segmentofH,,: 
ER AQ x rx T) 上 的 分 量 为 a, RH 46089 aj. o 将 数据 D, , -new ssociativeArray(); 
Hr Split, 中 的 点 x 及 其 在 属性 域 4 上 的 归 一 化 分 量 作为 键 值 foreach x (j#i) inH,,: 
XL «xa. > 存放 在 一 个 关联 数组 中 , 079 H, no 同 理 记 数据 集 UT 
万 中 所 有 点 在 属性 域 4 上 的 相应 关联 数组 为 H, o Master 指派 mE P TM 
M ^ Map 任务 与 7 个 Reduce 任务 。 用 Map 函数 将 Split, 中 的 EmitIntermediate (x , D,,); 
数据 在 归 一 化 的 同时 按 各 属性 域 拆 分 ， 用 Reduce 函数 将 属性 reduce(Point x, , Iterator arrays): 
域 下 各 数据 片 的 数据 整合 ， 二 者 伪 代 码 如 下 所 示 : // arrays 是 点 x 在 各 属性 域 下 D, 的 集合 
map(Index SplitIndex, , DataSplit Split, ): D, =new ssociativeArray(); 
foreach A, in Attributes: foreach D,, in arrays: 
H,,, "new ssociativeArray(); AttributeSum( D, , D,;); 
/新 建 一 个 关联 数组 H, n /将 各 属性 域 下 的 距离 平方 求 和 
foreach x, in Split, : AttributeSquareRoot( D, );// 开 方 求 欧 氏 距 离 
H, [x17 (a, ~ an) (uu eand: Emit( x, , D, ); 
EmitIntermediate ( A, H,, ); 2.1.4 HA e BI 
reduce(String A, , Iterator arrays): 上 一 步 得 到 的 距离 矩阵 Dist 由 jy 段 数 据 文件 组 成 ， 记 第 
// arrays 是 各 数据 片 在 属性 A FH,, 的 集合 m 段 数据 文件 及 其 索引 分 别 为 Segment , 和 SegmentIndex, 。 对 
H, =new ssociativeArray(); 于 某 段 数据 文件 Segment, ; Map 函数 线性 扫描 其 中 各 数据 点 与 
foreach H,, in arrays: 其 余数 据点 的 距离 以 获得 最 小 的 y 个 欧式 距离 ， 并 由 此 计算 出 
Merge( H,, H,,); 各 点 的 x- 最 近邻 超 球 半径 rRadiusQc, X)» ， 同 时 Map 函数 线性 
Emit( A,, H, ); 扫描 该 段 数据 文件 中 各 数据 点 的 最 近邻 超 球 半径 以 获得 最 大 的 
2.1.3 计算 欧 氏 距离 矩阵 O， 个 值 并 作为 一 个 集合 Set, 输出 ,Reduce 函数 线性 扫描 所 有 
如 果 T<M “此 时 往往 有 |[M/T|<N )， 为 了 达到 更 优 的 其 收 到 的 集合 并 选取 其 中 最 大 的 O n 个 值 ， 取 其 均值 作为 判定 


num 


扩展 性 ， 可 以 对 上 一 步 获 得 的 各 属性 域 下 的 关联 窍 阵 进 行 复 制 BE g o Master 指派 y 个 Map 任务 和 1 A Reduce 任务 。Map 


录用 稿 


函数 及 Reduce 函数 的 伪 代 码 如 下 所 示 : 


map(Index SegmentIndex,,, DistSplit 


Set, -new Set(); 
/新 建 含 O， 个 0 的 集合 


num 


foreach x, in Segment, : 

scan D, to get ther smallest distance; 
calculate rRadius(x,, X) ; 

if (it »minimum( Ser, )) 

replace the minimum with it; 
EmitIntermediate( y , Set, ); 
reduce(Dataset y, Iterator sets) 

/ sets 是 各 段 数据 的 Ser, 的 集合 

Set = new Set(); 

UER 0,,,, 个 0 的 集合 


num 


foreach Ser, in sets: 

foreachrin Set, : 

if (r »minimum(Set)) 

replace the minimum with r; 

耳 =mean(Set);// 求 集合 中 半径 的 均值 
Emit( y ,T); 


2.1.5 选取 初始 聚 类 中 心 
经 过 上 一 步 不 仅 获 得 了 离 群 点 的 判定 闵 值 了， 也 得 到 了 各 


数 ; 


x HE oN TX S 


(rRadius(u , X) « T) HARI 


据点 中 拿 出 距离 点 y 


再 次 随机 选取 一 个 非 离 群 点 作为 io 


WARO 与 点 y 组 成 初始 徐 C ， 接 着 算法 从 剩余 的 数据 点 中 


uon rb BS WLoxe HO — ^ dE BD HR RR y 
距离 矩阵 Dist 中 的 信息 从 


最 近 的 | N/K | 个 非 离 群 点 (过 到 离 群 


Segment,, ): 


点 的 r- 最 近邻 超 球 半径 rRadius(x,, A) « W g NIIR 
RRP ODIN {CCC} {hto tie} FAAA R 


H 


其 余数 


同 


分 点 与 其 组 成 初始 簇 C, ， 算 法 重复 这 一 


K 


AMIGAS 
数据 点 数目 〈 约 | N/ 天 | ) 分 别 
的 均值 点 作为 初始 聚 类 中 心 。 
阵 Dist 并 单独 执行 这 一 步 算法 。 


2.1.6 聚 类 分 析 及 隐私 保护 


点 与 片 中 数据 点 ( 


经 过 上 一 步 得 到 了 久 个 初始 聚 类 中 心 ass) 与 不 
含 离 群 点 的 数据 集 yo MINA 
片 及 
Map 函数 计算 其 中 数 扩 


其 索引 仍 记 为 Split 


m 


和 SplitIndex,, 。 


P 数 据点 的 总 和 ， 
添加 Laplace 噪声 ， 进 而 求 各 簇 
Master 〈 主 节点 ) 整合 距离 矩 


为 M 个 数据 片 ， 


昌 点 与 各 聚 类 中 心 的 距离 并 就 近 关 联 片 中 
数据 点 到 相应 的 聚 类 中 心 ， 并 以 < 上 ,Cu > 的 
其 集合 记 为 C,, ) 的 关联 关系 。Reduce 函数 


样 拿 出 其 周围 


的 一 部 


拿 取 的 过 程 直 至 获得 
向 总 和 与 簇 中 


第 m 个 数据 
对 某 个 数据 片 Split, > 


m 


P XU H D 


则 整合 与 各 中 ， 
M, WE AH 


ChinaXiv 合 作 期 刊 
Hk, F: 支持 差分 隐私 保护 及 离 群 点 消除 的 并 行 K-means 算法 


心 点 关联 的 所 有 数据 点 为 一 能 并 计算 其 数 
F 心 点 的 簇 为 C、， 簇 中 数据 点 数 


与 总 
及 总 和 分 别 为 


num, 和 sum, ， 然 后 向 num, 和 sum, 中 添加 相应 量 的 Laplace V 


AB 
声 得 到 num’ F 


的 聚 类 中 心 4, o Master 
Uds) 并 结合 其 在 
及 判断 迭代 次 数 是 否 达 到 上 限 ， 进 而 决定 是 进入 下 


l sum! 进而 计算 4 


接收 Reduce f 
上 一 轮 的 值 计算 是 否 满 


HIR C, 的 均值 点 作为 新 一 代 


E 务 输出 的 新 一 代 


AE MCA TT UA 


fEXS TOS 


是 终止 算法 并 给 出 聚 类 结果 。Master 共 指派 y 个 Map 任务 和 
K ^ Reduce 任务 .Map 函数 及 Reduce 函数 的 伪 代 码 如 下 所 示 : 


map(Index 


for k from 


C, , "new 


SplitIndex, 


] to K: 
Set(); 


/为 中 心 点 改建 立 一 个 空 的 集合 


foreach x, in Split, : 


find the ne 
add x, to 


for k from 


m 


arest centre Ho 
Hy 's C, , 
] to K: 


EmitIntermediate( jj, ， C, ,,); 


reduce(Point ,, , Iterator sets) 


// sets 是 各 段 数 据 C, ,的 集合 


for k from 


] to K: 


C, =new Set(); 


/为 中 心 点 所 建立 一 个 空 的 旨 


Yr 


foreach C,, in sets: 


Merge( C, 


C4 


, DataSplit Split,. ): 


Calculate num, and sum, of C,; 


Add laplace noise and get / 


update 4, 


Emit( Ho 


2.2 差分 隐私 


num, 
by sum, / num, ? 


num, ) 


分 析 


个 数 ] 


sum, ? 


上 述 , ERKI ES Uo POSER BEE E jy 
居 片 上 各 有 一 个 Map 任务 ，Map 任务 的 输出 又 被 划分 为 
太 个 部 分 并 行 地 由 
代 聚 类 中 心 的 计算 。 


THI Reduce 任务 完成 数据 的 整合 与 新 一 
因此 每 一 次 迭代 得 到 的 聚 类 结果 是 各 


Reduce 任务 输出 的 并 行 组 合 ， 设 第 ] 次 迭代 各 Reduce 任务 的 


p 


并 行 组 合 性 ， 


设 


出 满足 È e) 差分 隐私 保护 。 本 文采 月 


输出 都 可 以 满足 e- 差分 隐私 保护 ， 

则 第 7 次 闪 代 的 输出 可 

而 聚 类 分 析 的 最 终结 果 相当 于 多 次 迭代 过 程 的 序列 
总 3 


前 文 所 述 


以 满足 上 - 差分 隐私 


和 代 次 数 为 工 ， 由 差分 隐私 的 序列 组 合 性 ， 


的 差分 隐私 的 
保护 ， 
合 的 输出 ， 
算法 的 最 终 输 


昌文 献 [9] 的 隐私 保护 预算 


分 配 策略 ， 设 总 的 预算 为 a。 ， 则 给 予 每 一 次 迭代 剩余 隐私 预算 
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chinaXiv 


录用 稿 


的 一 


算法 


A5 e 


4 的 艇 C, 中 数据 点 数 
Laplace 噪声 量 的 大 小 。 
考虑 修改 或 者 删 去 Rr 上 归 一 化 的 数据 集 Am sus) 中 的 
一 点 ， 


x, e[0,1]" > 


半 ， 即 取 第 1 次 迭代 的 隐私 保护 预算 s 为 sy/21 ， 


1=1 


的 选取 及 初始 聚 类 中 心 
第 7 次 迭代 的 隐私 保护 预算 e, ， 


num, 及 


首先 


易 知 num 的 全 局 敏感 度 
由 此 知 sum 的 全 局 敏感 度 


BE Af, 


数 了 多 少 次 迭代 ， 总 有 (六 sj)<e - 


分 析 num 及 sum 的 全 


num 


如 此 不 论 


需要 注意 


的 生成 看 做 第 一 次 迭代 。 


可 以 计算 出 聚 类 中 心 点 
总 和 sum, is 需要 添加 的 
局 敏感 度 ， 


=1， 而 因为 归 一 化 ， 


Hx 士 FH 
A Af = A 此 此 聚 类 结 


(或 称 查询 序列 ) 的 Af =(T+1)。 所 以 第 1] e num, 及 sum, 


主要 
作为 
台 计 


E. 


添加 的 Laplace 噪声 量 
上 ， 本 文 算法 可 以 达到 e- 差分 


综 J 
实验 分 析 
本 文 算法 的 隐私 性 


已 经 在 上 文中 得 到 证 明 


EMN Lap((T +1)x 2 / e) ° 


隐私 保护 。 


此 实验 部 分 


> 


考察 算法 的 运行 效率 及 其 聚 类 结果 的 可 用 性 。 
台 计 算 机 和 作为 分 节点 的 三 


主 节 点 的 一 
算 机 的 CPU 为 双核 3.3GHz, 内 存 


〈 记 
录 数 
录 数 
用 于 
之 前 
重 和 
法 作 


为 178， 属 性 数 为 13， 中 心 数 为 
为 17898， 属 


分 类 与 聚 类 算法 以 及 离 群 点 检测 


性 数 为 9， 中 心 数 为 2)， 
算法 的 检验 。 


实验 环境 
台 计 算 机 组 成 。 每 
4GB, 操作 系统 为 Ubuntu 


部 署 了 Hadoop2.6.0, 算法 实现 语言 为 Java。 实验 用 数据 集 为 
UCI Knowledge Discovery Archive database 中 的 Ecoli 数据 集 
录 数 为 336， 属 性 数 为 8， 中 心 数 为 8)，Wine 数据 集 


3)，HTRU2 数据 集 
这 三 个 数据 集 都 适 
在 检验 算法 


首先 对 这 些 数据 集 进行 一 些 合 


里 的 预 处 理 


如 对 记录 点 的 去 


各 点 属性 值 的 归 


A 


于 日 


3.1 


3 F-measure 值 来 评估 各 算法 


前 基于 差分 隐私 保护 世 
聚 类 结果 可 用 性 的 评估 
考虑 到 实验 所 用 的 各 数据 集 都 已 


相 比 


果 为 


H, 


类 的 准 


于 其 
N?’ 标准 


P={P',P,.., 


一 化 (min-max 标准 化 )。 
对 比 的 是 OEDP k-meansU?!, IDP k-means 
聚 类 算法 。 


息 检 索 与 挖掘 中 的 准确 率 (precision ) 和 
也 一 些 评估 方法 更 为 中 肯 。 假 设 某 数据 集中 的 记录 总 
聚 类 结果 为 P={P,P,.…， 


实验 中 与 本 文 算 
3], DP k-means!’ 


AN 


出 了 参考 分 类 ， 本 文采 


去 聚 类 结果 的 可 用 性 。 F-measure 


tH [n 


X (recall), 


Poj 算法 的 实际 聚 类 结 


中 的 记录 数 


P 


i 


JPNP | 为 B 和 p ELERE 


RAH E 


率 分 别 为 Prec 和 Rec, » 


， 记 第 ;is<is< K) T 


DUE 


-IBNR 


PAP 
[BNP| pec 


Prec, = 
ia 


(6) 
|E] 


二 者 的 加 权 调和 平均 〈 取 准确 率 


F = 


5AE 
2- Prec, - Rec, 


率 同样 的 权重 ) 为 


(7) 


Prec; + Rec, 


然后 对 各 五 取 加 权 平 均 即 为 算法 


聚 类 结果 的 可 用 性 


KE 
Ma 


RR, Fi 支持 差分 隐私 


ChinaX 


保护 及 离 群 点 消除 的 


SIRI 
F-measure = Bra F, 


F-measure 的 取 值 范围 
性 越 高 。 
3.2 ”算法 参数 选取 


线性 地 在 该 


影响 。 


JE [0,1] , 值 越 大 则 说 明 聚 类 


可 用 性 


大 | 


其 次 ， 对 于 每 WEAR K> 


为 实验 中 | 


参考 分 类 的 数 


过 程 中 ， 都 涉及 r- 最 近邻 


整 并 取 最 
其 y 为 1， 


而 对 HTRU2 数 ] 


区 域 的 概念 
考 文献 [19] 中 的 方法 以 F-measure 为 
万 ， 即 对 Ecoli 数据 集 


合作 期 刊 


首先 ， 对 于 隐私 保护 预算 e IE [0.05,1] PRE, 
区 间 中 取 值 来 观察 其 对 算法 的 


到 的 各 数 提 
出 了 参考 分 类 ， 而 本 文 主要 关注 的 是 k-means 算法 中 的 离 群 点 
消除 、 初 始 中 心 点 选取 和 对 差分 隐私 的 支持 ， 因 此 
为 其 聚 类 数 Ko 
最 后 ， 在 本 文 算法 和 OEDP k-means 算法 对 离 群 
对 参数 y 较为 敏感 。 


+ 
结果 


Ma K-means 算法 


(8) 


的 可 用 


因此 


和 执行 效率 的 


居 集 都 已 给 
点 


TEUER 


TW 


点 的 处 


u 
i 


y 


标 函 


数 对 


取 


3.3 ”可 用 性 与 运行 效率 对 比 及 分 析 


首先 , 在 Ecoli 数据 集 和 Wine A3) 
法 ，OEDP k-means 算法 ，IDP k-means 算法 和 DP k-means 算 
法 。 对 每 一 次 在 [0.05,1] 中 线性 


取得 的 隐私 保护 ] 


参数 r 进行 
其 jy 为 3， 对 Wine 数据 集 取 
ERRE ;为 7， 并 在 后 续 的 实验 中 
将 各 数据 集 y 值 代入 本 文 算法 与 OEDP k-means 算法 。 


预算 e , 


zH 


虽 集 上 单机 运行 了 本 文 算 


都 重复 


执行 上 述 四 种 算法 5 次 ， 以 取得 各 算法 的 Faneasure 值 和 执行 
所 耗 时 间 的 平均 值 。 考 虑 到 IDP k-means 算法 并 不 包含 对 离 群 
点 的 处 理 而 DP k-means 算法 不 包含 任何 附加 的 初始 化 策略 , 这 
里 的 执行 耗 时 是 在 完成 聚 类 初始 化 (如 可 能 的 离 群 点 消除 与 初 
始 聚 类 中 心 的 选取 ) 后 各 算法 聚 类 过 程 所 耗 的 时 间 。 具 体 情况 
如 下 图 1 到 图 4 所 示 。 
—e— 本 文 算法 :— OEDP m— IDP x— DP 
1 
E 
8 095 
$ 09 
x 0.85 
ks 0.8 
HP 0.75 
[Ey 
0.7 


0.05 0.1 0 


-2 0.4 0.6 0.8 


隐私 保护 预算 


图 1 Ecoli 数据 


一 @ 一 本 文 算法 


:X— OEDP 


集 上 各 算法 的 可 用 性 


01 
^. 0.08 
$ 006 


0.05 0.1 0. 


图 2 Ecoli 数据 鲁 


2 0.4 0.6 0.8 
隐私 保护 预算 


攻 上 各 算法 的 执行 效率 


201804.01420v1 
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一 @ 一 本 文 算法 —A—OEDP —H—IDP —x—DP 


€ 1 

$ 098 

= 096 

D: 

p 094 

:H 092 

HE 

is 09 
01 02 04 0.6 

隐私 保护 预算 

图 3 Wine 数据 集 上 各 算法 的 可 用 性 


一 @ 一 本 文 算法 一 和 OEDP —H—IDP —x—DP 


0.07 
0.06 
和 ~ 0.05 
$ 0.04 
- 0.03 
5 0.02 A 
0.01 e eoe o o o 
0 
0.05 0.1 0.2 0.4 0.6 0.8 1 
隐私 保护 预算 
图 4 Wine 数据 集 上 各 算法 的 执行 效率 
图 1 到 图 4 可 知 ， 对 隐私 保护 预算 s 的 每 一 个 值 ， 本 文 


提出 的 算法 相 比 于 其 他 算法 都 有 着 更 高 的 F-measure 值 和 更 少 


的 聚 类 耗 时 ; 
算法 较 小 ; 男儿 


H.24 e 变化 时 
, F-measure 值 代表 也 
增加 隐私 保护 水 平 的 降低 而 提高 。 


从 算法 设计 的 角度 而 言 ， 相 比 于 一 般 的 DP k-means 算法 ， 


| ， 本 文 算法 耗 时 的 波动 相 比 其 他 
聚 类 结果 可 用 性 随 着 e 


的 


本 文 算法 在 提供 差分 隐私 保护 的 同时 ， 对 离 群 点 和 初始 聚 类 中 


心 的 处 理 提升 1 


要 利用 的 是 数据 点 的 最 近邻 超 球 半径 ， 而 OEDP k-means 算法 


聚 类 结果 可 用 


所 用 


的 最 近邻 密度 实际 j 


上 是 最 近邻 超 球 半 


出 判 


初始 聚 类 中 心 的 选 了 
均匀 划分 为 天 部 分 


XE BIB EXC ASA 
为 简洁 ， 此 外 本 文 算 法 导出 判定 阔 值 的 过 程 是 
区 , IDP k-means 55:72: n fij tH 
求 其 中 心 的 方法 对 


久别 ， 因 此 省 


Efi 


性 ， 对 于 离 群 点 的 判定 ， 本 文 主 


Rk, F 


: 支持 差分 隐私 保护 及 


hinaXiv 合 作 期 刊 


群 点 消除 的 并 行 K-means 算法 


Ç 
"^ 


加 速 情况 。 在 HTRU2 数据 集 上 截取 不 同 数量 的 记录 和 集 作为 待 


处 理 数据 集 。 
单机 


对 


每 一 次 和 
运行 OEDP k-means 算法 , 3 个 子 节 点 运行 本 文 算法 各 5 次 


Yr 


取 所 得 数据 集 ， 单 机 运行 本 文 算法 ， 


取 运 行 时 间 的 平均 值 。 这 里 的 运行 时 间 包 含 算法 中 的 聚 类 初始 


化 过 程 〈 离 群 点 消除 与 初 


ZN o 


台 聚 类 中 心 选取 ) PE. RER 5 所 


一 入 一 单 节点 运行 本 文 算法 一 @ 一 三 节点 运行 本 文 算法 
一 < 一 单机 运行 OEDP 算 法 


算法 的 运行 时 间 《 秒 ) 


0.5 2 4 6 8 


图 5 HTRU2 数 


10 
截取 数据 集 的 记录 数 (TR) 


12 


时 集 上 各 情况 的 执行 效率 


图 5 可 知 , 单机 运行 下 本 文 算法 的 耗 时 较 OEDP k-means 


算法 更 低 ， 这 主要 是 因为 本 文 算法 对 离 群 点 的 判定 更 为 简洁 ， 


且 对 初始 聚 类 中 心 的 选取 策 
法 耗 时 相 比 单机 时 有 显著 下 降 , 这 说 明 MapReduce 框架 下 的 本 


文 算法 可 以 很 好 地 通过 多 节点 


效率 。 另 外 ， 图 


独 更 为 合理 。 而 3 节点 下 的 本 文 算 


点 并 行 计算 来 提高 聚 类 算法 的 执行 


中 三 种 情况 的 耗 时 基本 和 截取 数据 集中 的 记录 


数 呈 二 次 
数据 自 


A 


界 关 于 数据 集中 的 记录 数 是 二 次 的 。 虽 然 在 获得 图 


线 ， 这 主要 是 
各 记录 点 的 欧 氏 距离 矩阵 ， 而 该 过 程 的 计算 复杂 度 下 


于 为 完成 离 群 点 的 判定 ， 需 要 计算 


5 数据 的 过 


E 径 的 倒数 ， 二 者 在 导 
| 数 计算 的 本 文 算法 更 


行 化 的 ;， 对 于 


RKK 


也 将 所 有 数据 点 
优化 并 不 够 好 ， 


OEDP k-means 算法 则 是 将 所 有 数据 点 先 按 最 近邻 密度 排序 然 
后 均匀 划分 为 部 分 并 求 其 中 心 ， 该 方法 虽 优 于 IDP k-means 


但 当天 个 数据 徐 在 高 
的 初始 中 心 会 趋 于 旨 
算 离 群 点 判定 阅 值 时 


RETRA 
成 的 距离 入 


空间 对 称 分 布 且 秘 内 密度 均匀 时 得 到 


劣化 ， 而 本 文 算法 充分 利用 
E 阵 ， 选 取 的 初始 聚 类 中 心 可 


fik 


以 更 接近 实际 的 中 心 点 ， 从 而 减少 了 聚 类 过 程 的 迭代 次 数 ， 也 
避免 了 过 多 噪声 的 引入 , 因此 在 实验 中 较 OEDP k-means 和 IDP 


k-means 算法 表 


DL SET. 


聚 类 结果 的 


可 用 


因此 , 依靠 更 合理 的 离 群 点 处 理 和 初始 
聚 类 中 心 选 取 策 略 ， 对 于 同等 级 的 差分 隐私 保护 ， 本 文 算法 在 


性 以 及 聚 类 效率 等 方面 相 比 其 他 三 种 算法 有 更 


优 的 表现 。 


其 次 ， 考 察 在 不 同 数 所 


居 量 下 多 节点 并 行 处 理 对 本 文 算法 的 


程 中 每 


次 运行 


都 会 计算 一 遍 距 离 算 了 泗 ， 但 在 实际 中 ， 同 一 数 


据 集 上 的 初始 化 过 程 计 算 一 遍 即 可 。 


4 ”结束 语 


本 文 基于 MapReduce 计算 框架 提出 了 一 种 并 行 化 的 支持 


差分 隐私 保护 和 离 群 点 消除 的 K-means 聚 类 算法 ， 给 出 了 
各 点 间 的 欧 
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氏 距 离 矩阵 与 最 近邻 超 球 半径 导出 离 群 点 判 


Pl 


BEKS 


隐私 


行 计算 方案 ， 以 及 在 此 直 
护 的 初始 聚 类 中 心 选取 策略 。 理 论 分 析 与 实验 结果 表明 算法 在 
保护 的 有 效 性 ， 聚 类 结果 
性 等 方面 取得 了 很 好 的 平衡 ， 相 
在 后 续 的 研究 中 ， 计 划 尝试 更 多 不 同 


EE 


础 上 设计 的 满足 差分 隐私 保 


的 可 用 性 以 及 执行 效率 和 可 扩展 
比 于 同类 算法 有 较 优 的 表现 。 
的 隐私 保护 预算 分 配 策略 
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